第5章 深層学習に基づく統計的パラメトリック音声合成
統計的パラメトリック音声合成
HMM音声合成
隠れマルコフモデル利用
単一のモデル
→ DNN音声合成
隠れマルコフモデルを深層ニューラルネットワークで置き換え
全結合型
RNN
2つのモデル
継続長モデル:音素単位の言語特徴量を入力として、音素継続長を予測する
duration model
音響モデル:フレーム単位の言語特徴量から音響特徴量を予測する
acoustic model